2 research outputs found

    INRISCO: INcident monitoRing in Smart COmmunities

    Get PDF
    Major advances in information and communication technologies (ICTs) make citizens to be considered as sensors in motion. Carrying their mobile devices, moving in their connected vehicles or actively participating in social networks, citizens provide a wealth of information that, after properly processing, can support numerous applications for the benefit of the community. In the context of smart communities, the INRISCO [1] proposal intends for (i) the early detection of abnormal situations in cities (i.e., incidents), (ii) the analysis of whether, according to their impact, those incidents are really adverse for the community; and (iii) the automatic actuation by dissemination of appropriate information to citizens and authorities. Thus, INRISCO will identify and report on incidents in traffic (jam, accident) or public infrastructure (e.g., works, street cut), the occurrence of specific events that affect other citizens' life (e.g., demonstrations, concerts), or environmental problems (e.g., pollution, bad weather). It is of particular interest to this proposal the identification of incidents with a social and economic impact, which affects the quality of life of citizens.This work was supported in part by the Spanish Government through the projects INRISCO under Grant TEC2014-54335-C4-1-R, Grant TEC2014-54335-C4-2-R, Grant TEC2014-54335-C4-3-R, and Grant TEC2014-54335-C4-4-R, in part by the MAGOS under Grant TEC2017-84197-C4-1-R, Grant TEC2017-84197-C4-2-R, and Grant TEC2017-84197-C4-3-R, in part by the European Regional Development Fund (ERDF), and in part by the Galician Regional Government under agreement for funding the Atlantic Research Center for Information and Communication Technologies (AtlantTIC)

    ontribución á investigación de novos modelos de extracción do coñecemento sobre sistemas Big Data

    No full text
    La clasificación de textos es uno de los principales campos de investigación del Procesado de Lenguaje Natural (PLN). Su estudio tiene un gran interés práctico dado el amplio espectro de aplicaciones finales de los sistemas de clasificación, tales como el etiquetado automático de mensajes de usuarios en redes sociales (p.e. detección de sentimiento o radicalización) y clasifi-cación de las interacciones de un usuario en su comunicación con agentes conversacionales. El objetivo principal de esta tesis es contribuir al avance de los sistemas de clasificación de textos desde su enfoque más práctico, allanando algunos de los principales obstáculos que se encuentra el científico de datos: la falta de datos etiquetados para el entrenamiento y la representación necesaria para los modelos de clasificación de textos. Para el primer problema se proponen distintas estrategias para realizar búsquedas de datos de un determinado contexto sobre grandes volúmenes de datos. Esto permite generar corpus para determinados ámbitos o detectar textos que guarden cierta similitud con un conjunto inicial. Por otro lado se propone la combinación de datos de varias fuentes con muy poca supervisión humana. También se aplican estrategias a la salida de los clasificadores que permiten filtrar resultados incorrectos, que explotan la semántica de las etiquetas y conocimiento experto. Para el segundo problema se mejora la representación vectorial a la en-trada de los modelos de clasificación mediante nuevas características que se obtienen de textos informales, y se propone un sistema para mejorar la abstracción del texto original entrenado con datos de un diccionario inverso.Se han validado las contribuciones de la tesis en competiciones interna-cionales o proyectos europeos. Por ejemplo, en la competición SemEval de análisis de sentimiento en textos de una red social, problema sumamente subjetivo y de amplio contexto. La búsqueda de textos similares se ha validado en la detección de incidencias urbanas a partir de datos generados por usuarios de redes sociales y también en el ámbito del proyecto europeo PRACTICIES para la detección de contenido radical. Se han verificado las mejoras en la abstracción de textos frente a los principales métodos exis-tentes. Finalmente se ha abordado la clasificación para la extracción de relaciones entre entidades, cuyos principales problemas son la ausencia total de datos de entrenamiento y las numerosas clases posible
    corecore